10.15论文笔记

To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models

EMNLP man 2024
在这里插入图片描述
在这里插入图片描述
结论:基于上述证据,我们提供了选择连接器的建议:1. 图像分辨率为224时,建议使用双层MLP,因为它在三个任务中表现优异且计算资源需求适中。2. 分辨率为336时,若关注粗粒度感知和推理任务,推荐使用C-Abstractor和平均池化,它们在效率和效果间保持平衡。若优先精细感知任务,可选择双层MLP。3. 分辨率为448时,双层MLP的令牌数增加到1024,导致计算资源消耗过大,此时C-Abstractor和平均池化144tks更为理想。具体而言,C-Abstractor在预训练阶段减少了80%的训练时间,微调阶段减少了51%,显著降低计算成本,适合资源有限的场景。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值