Abstract
我们提出了 HERO,一种用于大规模视频 + 语言全方位表示学习的新框架。 HERO 在分层结构中编码多模态输入,其中视频帧的局部上下文由跨模态转换器通过多模态融合捕获,全局视频上下文由时间转换器捕获。除了标准的掩码语言建模 (MLM) 和掩码帧建模 (MFM) 目标之外,我们还设计了两个新的预训练任务:(i) 视频字幕匹配 (VSM),其中模型预测全局和局部时间对齐; (ii) Frame OrderModeling (FOM),其中模型预测打乱视频帧的正确顺序。HERO 在 HowTo100M 和大规模电视数据集上联合训练,以深入了解具有多角色交互的复杂社会动态。综合实验表明,HERO 在基于文本的视频/视频时刻重新检索、视频问答 (QA)、视频和语言推理以及跨不同领域的视频字幕任务的多个基准测试中实现了最新技术水平。我们还介绍了两个新的具有挑战性的基准测试 How2QA以及用于 VideoQA 和检索的 How2R,从多模态的不同视频内容中收集。
1 Introduction
受 BERT(Devlin 等人,2019 年)的启发,大规模多模态预训练在视觉和语言研究领域盛行(Lu 等人,2019 年;Tan 和 Bansal,2019 年;Chen 等人,2020b ). 该领域有很多早期参与者,包括ViLBERT (Lu et al., 2019)、LXMERT (Tan and Bansal, 2019)、UNITER (Chen et al., 2020b)、VL-BERT (Su et al., 2020) ) 和 Unicoder-VL (Li et al., 2020a)。 然而,大多数大规模预训练模型是为静态图像而不是动态视频量身定制的。 VideoBERT (Sun et al.,2019b) 是第一个应用 BERT 来学习视频文本对联合嵌入的人。 但由于仅使用离散令牌来表示视频帧,因此没有充分利用丰富的视频帧特征。 为了解决这个问题,CBT (Sunet al., 2019a) 提出使用对比损失,但主要用于单独的视频表示学习,文本输入仅被视为辅助信息。 UniViLM (Luo et al., 2020) 更进一步并考虑 理解和生成任务。
一些约束本质上限制了现有模型的成功。 (i) 大
HERO: Hierarchical Encoder for Video+LanguageOmni-representation Pre-training(未完)
最新推荐文章于 2025-04-08 15:20:41 发布
HERO是一种新型的视频+语言预训练框架,采用分层结构编码多模态输入,通过跨模态和时间转换器捕获局部和全局上下文。模型设计包括掩码语言建模、掩码帧建模、视频字幕匹配和帧顺序建模任务,以增强时间对齐和序列性理解。HERO在多个基准测试中表现出最先进的性能,特别是在基于文本的视频检索、视频问答和字幕任务上。模型在HowTo100M和电视数据集上训练,以处理复杂的多角色交互和社会动态。

最低0.47元/天 解锁文章
841

被折叠的 条评论
为什么被折叠?



