本文是LLM系列文章,针对《Toward Interactive Regional Understanding in Vision-Large Language Models》的翻译。
摘要
最近的视觉语言预训练(VLP)模型已经显示出显著的进步。然而,这些模型严重依赖于仅捕获图像的粗略和全局信息的图像-文本对,导致其区域理解能力受到限制。在这项工作中,我们介绍了RegionVLM,它配备了明确的区域建模功能,使他们能够理解用户指示的图像区域。为了实现这一点,我们设计了一个简单而创新的架构,不需要修改模型架构或目标功能。此外,我们利用了一个包含新信息来源的数据集,即本地化叙述,这在以前的VLP研究中被忽视了。我们的实验表明,我们的单广义模型不仅实现了交互式对话系统,而且在不影响其全局图像理解能力的情况下,在各种零样本区域理解任务上表现出优异的性能。
1 引言
2 相关工作
3 提出的方法
4 实验
5 结论
在这项研究中,我们解决了现有视觉语言预训练模型的区域理解能力有限的问题。我们提出了一个可以输入区域指示的模型,该模型被无缝地集成到现有模型中。此外,我们还利用本地化叙述来学习图像区域的一般知识。我们的实验展示了我们的广义模型在一组不同的零样本区域理解任务中的卓越性能,而不影响其全局图像理解任务的能力。作为一个通用模型,我们预见到通过指令调整进一步增强的巨大潜力,为未来的研究奠定了一个

订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



