本文是LLM系列文章,针对《Probing Multimodal Large Language Models for Global and Local
Semantic Representations》的翻译。
摘要
多模态大型语言模型(MLLMs)的发展极大地加速了理解综合文本和图像的应用程序的发展。最近的工作利用图像字幕数据集来训练MLLM,在图像到文本任务上实现了最先进的性能。然而,很少有研究探讨MLLMs的哪些层对全局图像信息做出了最大的努力,而全局图像信息在多模态理解和生成中起着至关重要的作用。在这项研究中,我们发现模型的中间层可以编码更多的全局语义信息,其表示向量在视觉语言隐含任务中表现得更好,而不是最顶层。我们通过对象识别任务进一步探索关于局部语义表示的模型。我们发现,最顶层可能过度关注局部信息,导致对全局信息进行编码的能力减弱。我们的代码和数据通过https://github.com/kobayashikanna01/probing_MLLM_rep开源。
1 引言
2 相关工作
3 全局多模态表示
4 局部多模态表示
5 更多提示的结果
6 结论
在本文中,我们通过基于提示的