Probing Multimodal Large Language Models for Global and Local Semantic Representations

本文研究多模态大型语言模型(MLLMs),发现模型中间层更能编码全局语义信息,而在视觉语言任务中表现优于顶层。顶层可能过度关注局部信息,影响全局信息编码。通过对象识别任务验证了这一点。研究表明,MLLMs上层的这种特性可能导致全局信息丢失,提出了对预训练机制的深入研究需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Probing Multimodal Large Language Models for Global and Local
Semantic Representations》的翻译。

探索用于全局和局部语义表示的多模态大型语言模型

摘要

多模态大型语言模型(MLLMs)的发展极大地加速了理解综合文本和图像的应用程序的发展。最近的工作利用图像字幕数据集来训练MLLM,在图像到文本任务上实现了最先进的性能。然而,很少有研究探讨MLLMs的哪些层对全局图像信息做出了最大的努力,而全局图像信息在多模态理解和生成中起着至关重要的作用。在这项研究中,我们发现模型的中间层可以编码更多的全局语义信息,其表示向量在视觉语言隐含任务中表现得更好,而不是最顶层。我们通过对象识别任务进一步探索关于局部语义表示的模型。我们发现,最顶层可能过度关注局部信息,导致对全局信息进行编码的能力减弱。我们的代码和数据通过https://github.com/kobayashikanna01/probing_MLLM_rep开源。

1 引言

2 相关工作

3 全局多模态表示

4 局部多模态表示

5 更多提示的结果

6 结论

在本文中,我们通过基于提示的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值