VLP、多模态视频文本(1)

本文概述了视觉语言预训练(VLP)在视频文本任务中的应用,包括视频检索、视频问答和视频字幕生成。文章详细介绍了双编码器和融合编码器模型架构,以及视频编码器从离线特征提取到端到端学习的发展。同时,涵盖了预训练对象,如VTC、MLM、VTM和FOM等在视频-文本模型中的作用。

        视频本质上包含多种形式,并且已被用作测试AI系统如何感知世界的缩影。在本章中,我们对视觉语言预训练(VLP)在视频文本任务中的应用进行了系统回顾。

        我们从介绍流行的视频文本任务开始。我们回顾了典型视频文本模型的架构,该架构包括视频编码器、文本编码器和多模态融合模块。我们将代表性的视频语言模型分为两类:

(i)双编码器,其中视频和文本分别编码,使用轻量级的多模态融合层或操作(如点积)来融合视频和文本特征;

(ii)融合编码器,在视频编码器和文本编码器之上通常采用多个额外的Transformer层来捕捉视频和文本特征之间的深层交互。

1.  视频-文本任务

         我们介绍了三种流行的视频-文本任务:文本到视频检索、视频问答和视频字幕生成。这些任务的示例如图1所示。

图1: 代表性视频-文本任务的示例包括:(i) 文本到视频检索,包括视频检索和时刻检索;
(ii) 视频问答,包括多项选择和开放式设置;(iii) 视频描述生成,包括单句描述和段落描述。

1.1 文本到视频检索

        文本到视频检索任务是根据自然语言查询从大规模视频语料库中检索相关的视频或视频片段。该任务可以根据设置进一步分为三种类型。

• 视频检索(Video retrieval :VR)

        从大规模视频语料库中检索相关视频。在这种设置下,文本查询应该对视频进行概述描述。以图1例子,“一个人和狗一起玩飞盘”总结了第一个视频中发生的事件。这类似于文本到图像检索,评估指标使用Recall@K(K=1, 5, 10, 100)。

• 单视频时刻检索(Single Video Moment retrieval:SVMR)

        从给定视频中定位检索到视频中的视频片段。文本查询仅与整个视频的特定片段相关。在图1中,“一个狗拿着一个飞盘在跑”只能与第一个视频中t = 3, 4, 5的视觉内容相关联。同样,评估指标使用Recall@K(K=1, 5, 10, 100),并约束真实提议与预测提议之间的时间交并比(tIoU)(例如,tIoU≥0.5/0.7)。

• 视频语料库时刻检索(Video Corpus Moment Retrieval:VCMR)

        将相关视频片段池从单个视频扩展到大规模视频语料库。它可以被视为VR和SVMR的组合。AI模型不仅需要从视频语料库中检索相关视频,还需要定位检索到视频中的视频片段,以便文本查询可以描述该视频片段。例如,给定查询“一个狗拿着一个飞盘在跑”,模型需要正确匹配到第一个视频,并将文本查询限定在t = 3到t = 5的视频片段中。类似地,VCMR使用Re

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值