主要内容 研究背景 多模态大语言模型(MLLMs)在处理视频任务时面临计算开销大的问题,现有压缩方法(如平均池化)因缺乏指令引导导致信息丢失。 方法 提出混合级指令注入策略(HICom),通过以下方式实现条件令牌压缩: 局部压缩:将视频帧特征分组,利用指令条件在每组内进行注意力机制压缩。 全局压缩:通过可学习令牌和指令条件在整体视频中提取关键信息。 条件预训练:构建HICom-248K数据集,在对齐阶段和指令微调阶段之间引入新的预训练阶段。 实验结果 在三个多选QA基准上平均提升2.43%,令牌数量减少78.8%。 在ActivityNet等开放式基准上达到SOTA性能。 结论 HIC