本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。
原文链接:计算效率和性能双赢!南大联合中移动发布高效多模态大模型新范式—— p-MoD
文章链接:https://arxiv.org/pdf/2412.04449
项目链接:https://github.com/MCG-NJU/p-MoD
亮点直击
MoD机制的引入:通过选择性处理重要视觉token,显著减少计算负担,提升模型效率。
创新的TanhNorm与STRing设计:解决了MoD模块在多模态训练中的稳定性和性能问题,即使在有限数据下也能精准评估token的重要性。
PRD策略:通过逐层减少保留token的比例,针对视觉token的冗余问题提供了有效的解决方案,大幅提高计算效率。
全面的实验验证:在多个基准测试中,p-MoD模型不仅保证了高效性,还表现出了超越传统基线的性能。
总结速览
解决的问题:
-
高计算成本:尽管多模态大语言模型(MLLMs)在多任务中表现出色,但其庞大的训练和推理成本严重阻碍了其发展。计算的主要负担来自于通过LLM处理的大量视觉token。
-
视觉token冗余:在处理高分辨率图像和视频时,视觉token数量急剧增加,导致计算成本暴涨,限制了MLLMs的进一步应用。
提出的方案:
-
MoD机制:通过引入深度混合(Mixture-of-Depths, MoD)机制,选择每个Transformer层要处理的最重要的视觉token,同时跳过冗余的token,从而提高计算效率。
-
创新设计:
-
TanhNorm:用于权重归一化的tanh门控方法,确保MoD模块的正确初始化,增强训练稳定性并解决推理时的数值稳定性问题。
-
STRing:对称token重加权模块,利用有限的训练数据和语言监督信号来精确评估token的重要性。
-
PRD策略:渐进式比例衰减(Progressive Ratio Decay, PRD)策略,基于移位余弦调度逐层减少保留token的比例,优化视觉token的冗余问题。
-
应用的技术:
-
MoD机制:最初用于大语言模型的MoD机制被改造为适用于多模态语言模型。
-
TanhNorm与STRing: