本文是LLM系列文章,针对《Apollo: An Exploration of Video Understanding in Large Multimodal Models》的翻译。
阿波罗:大型多模态模型中的视频理解探索
摘要
尽管视频感知能力迅速整合到大型多模态模型(LMM)中,但驱动其视频理解的潜在机制仍然知之甚少。因此,该领域的许多设计决策都是在没有适当理由或分析的情况下做出的。训练和评估此类模型的高昂计算成本,加上有限的开放研究,阻碍了视频LMM的发展。为了解决这个问题,我们提出了一项全面的研究,帮助揭示是什么有效地推动了LMM中的视频理解。
我们首先批判性地检查了与视频LMM研究相关的高计算要求的主要因素,并发现了缩放一致性,其中在较小的模型和数据集(达到临界大小)上做出的设计和训练决策有效地转移到了较大的模型。利用这些见解,我们探索了视频LMM的许多视频特定方面,包括视频采样、架构、数据组合、训练计划等。例如,我们证明了训练期间的fps采样比均匀帧采样要好得多,哪些视觉编码器最适合视频表示。
在这些发现的指导下,我们介绍了阿波罗,这是一个最先进的LMM系列,在不同模型尺寸上都能实现卓越的性能。我们的模型可以有效地感知长达一小时的视频,Apollo-3B的表现优于大多数现有的7B模型,在LongVideoBench上的表现令人印象深刻,为55.1。与7B