To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models
EMNLP man 2024
结论:基于上述证据,我们提供了选择连接器的建议:1. 图像分辨率为224时,建议使用双层MLP,因为它在三个任务中表现优异且计算资源需求适中。2. 分辨率为336时,若关注粗粒度感知和推理任务,推荐使用C-Abstractor和平均池化,它们在效率和效果间保持平衡。若优先精细感知任务,可选择双层MLP。3. 分辨率为448时,双层MLP的令牌数增加到1024,导致计算资源消耗过大,此时C-Abstractor和平均池化144tks更为理想。具体而言,C-Abstractor在预训练阶段减少了80%的训练时间,微调阶段减少了51%,显著降低计算成本,适合资源有限的场景。