VTimeLLM：Empower LLM to Grasp Video Moments

最新推荐文章于 2025-06-05 23:40:33 发布

深海的银

最新推荐文章于 2025-06-05 23:40:33 发布

阅读量1k

点赞数 9

分类专栏： CVPR 2024 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44543298/article/details/141535374

版权

paper：https://arxiv.org/pdf/2311.18445

Abstract：

当前的video LLM只能针对整个视频提供粗糙的（coarse）描述，难以捕捉到某一特定场景的精确的起止。本作中，我们解决了这个问题。我们提出了一种新颖的Video LLM框架：针对细粒度动作理解和推理（从时间范围的角度）。具体来说，我们的模型采用了一种boundary-aware的三阶段训练框架，从以下三个角度有改进：1. 利用了图片-文本对来进行特征对齐；2. 多事件视频来增加模型的时间范围意识；3. 高质量的视频-指令ft来进一步提升时间理解能力（与人类意图对齐）。

Introduction：

当前的LLM无法解决这个问题主要有两个挑战：1. 缺少一个有精确时间范围标注的大规模的视频数据集；2. 需要设计一个高效的时序相关的视频理解LLM。于是我们提出了我们的模型。

我们的模型有以下两个部分组成：1：一个视觉编码器和一个视觉适配器来处理输入视频；2. 一个特制的LLM通过三阶段训练策略来同时理解文本和视频内容。

阶段一：视觉特征通过图片-文本对训练与LLM在语义空间对齐；
阶段二：我们设计了单论（single-turn）和多轮（multi-turn）的QA任务来使得我们的模型能够感知到时间边界和理解时间边界里事件内容的能力

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。