
主要内容
-
研究背景
多模态大语言模型(MLLMs)在处理视频任务时面临计算开销大的问题,现有压缩方法(如平均池化)因缺乏指令引导导致信息丢失。 -
方法
提出混合级指令注入策略(HICom),通过以下方式实现条件令牌压缩:- 局部压缩:将视频帧特征分组,利用指令条件在每组内进行注意力机制压缩。
- 全局压缩:通过可学习令牌和指令条件在整体视频中提取关键信息。
- 条件预训练:构建HICom-248K数据集,在对齐阶段和指令微调阶段之间引入新的预训练阶段。
-
实验结果
- 在三个多选QA基准上平均提升2.43%,令牌数量减少78.8%。
- 在ActivityNet等开放式基准上达到SOTA性能。
-
结论
HICom通过混合级压缩和条件预训练,在减少计算负担的同时显著提升视频理解能力,为MLLMs提供了高效解决方案。

订阅专栏 解锁全文
1203

被折叠的 条评论
为什么被折叠?



