本文是LLM系列文章,针对《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》的翻译。
摘要
我们介绍了Groma,一种具有基准和细粒度视觉感知能力的多模态大型语言模型(MLLM)。除了全面的图像理解,Groma还擅长区域级任务,如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上,在该机制中,图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出基于图像。此外,为了增强Groma的基准聊天能力,我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。与依赖语言模型或外部模块进行本地化的MLLM相比,Groma在标准引用和基础基准测试中始终表现出卓越的性能,突出了将本地化嵌入图像标记化的优势。项目页面:https://groma-mllm.github.io/.