paper:https://arxiv.org/pdf/2311.18445
Abstract:
当前的video LLM只能针对整个视频提供粗糙的(coarse)描述,难以捕捉到某一特定场景的精确的起止。本作中,我们解决了这个问题。我们提出了一种新颖的Video LLM框架:针对细粒度动作理解和推理(从时间范围的角度)。具体来说,我们的模型采用了一种boundary-aware的三阶段训练框架,从以下三个角度有改进:1. 利用了图片-文本对来进行特征对齐;2. 多事件视频来增加模型的时间范围意识;3. 高质量的视频-指令ft来进一步提升时间理解能力(与人类意图对齐)。
Introduction:
当前的LLM无法解决这个问题主要有两个挑战:1. 缺少一个有精确时间范围标注的大规模的视频数据集;2. 需要设计一个高效的时序相关的视频理解LLM。于是我们提出了我们的模型。
我们的模型有以下两个部分组成:1:一个视觉编码器和一个视觉适配器来处理输入视频;2. 一个特制的LLM通过三阶段训练策略来同时理解文本和视频内容。
- 阶段一:视觉特征通过图片-文本对训练与LLM在语义空间对齐;
- 阶段二:我们设计了单论(single-turn)和多轮(multi-turn)的QA任务来使得我们的模型能够感知到时间边界和理解时间边界里事件内容的能力