本文是LLM系列文章,针对《Toward Interactive Regional Understanding in Vision-Large Language Models》的翻译。
摘要
最近的视觉语言预训练(VLP)模型已经显示出显著的进步。然而,这些模型严重依赖于仅捕获图像的粗略和全局信息的图像-文本对,导致其区域理解能力受到限制。在这项工作中,我们介绍了RegionVLM,它配备了明确的区域建模功能,使他们能够理解用户指示的图像区域。为了实现这一点,我们设计了一个简单而创新的架构,不需要修改模型架构或目标功能。此外,我们利用了一个包含新信息来源的数据集,即本地化叙述,这在以前的VLP研究中被忽视了。我们的实验表明,我们的单广义模型不仅实现了交互式对话系统,而且在不影响其全局图像理解能力的情况下,在各种零样本区域理解任务上表现出优异的性能。
1 引言
2 相关工作
3 提出的方法
4 实验
5 结论
在这项研究中,我们解决了现有视觉语言预训练模型的区域理解能力有限的问题。我们提出了一个可以输入区域指示的模型,该模型被无缝地集成到