VTimeLLM:Empower LLM to Grasp Video Moments

paper:https://arxiv.org/pdf/2311.18445

Abstract:

当前的video LLM只能针对整个视频提供粗糙的(coarse)描述,难以捕捉到某一特定场景的精确的起止。本作中,我们解决了这个问题。我们提出了一种新颖的Video LLM框架:针对细粒度动作理解和推理(从时间范围的角度)。具体来说,我们的模型采用了一种boundary-aware的三阶段训练框架,从以下三个角度有改进:1. 利用了图片-文本对来进行特征对齐;2. 多事件视频来增加模型的时间范围意识;3. 高质量的视频-指令ft来进一步提升时间理解能力(与人类意图对齐)。

Introduction:

当前的LLM无法解决这个问题主要有两个挑战:1. 缺少一个有精确时间范围标注的大规模的视频数据集;2. 需要设计一个高效的时序相关的视频理解LLM。于是我们提出了我们的模型。

我们的模型有以下两个部分组成:1:一个视觉编码器和一个视觉适配器来处理输入视频;2. 一个特制的LLM通过三阶段训练策略来同时理解文本和视频内容。

  • 阶段一:视觉特征通过图片-文本对训练与LLM在语义空间对齐;
  • 阶段二:我们设计了单论(single-turn)和多轮(multi-turn)的QA任务来使得我们的模型能够感知到时间边界和理解时间边界里事件内容的能力
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值