《Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning》---CVPR2020 论文阅读

作者提出了一种基于注意的多模态融合模型来整合音频和视频信息。并设计了不同的融合策略来对视频和音频进行整合,证明了音频在视觉任务中的重要性

提取audio,video,captions的特征,将它们输入到句子定位器中。然后在这些特征上应用一个跨注意力。使用注意力特征融合机制,紧接一个全连接层来产生时间segments

Caption generator将这三个特征和得到的时间片段作为输入, 它基于时间段对音频和视频特征进行soft mask clipping剪切,并使用上下文融合技术生成多模态上下文特征。然后通过decoder生成caption

Weakly Supervised Model

没有视频和字幕间的时间对齐ground truth

作者做出了一对一的对应假设:每一个字幕描述一个时间segment,每一个时间segment只对应一个caption

该模型包括两个网络模块:一个句子定位器和一个字幕生成器

给定一个字幕,句子定位器将会产生一个时间片段,对应于给定的时间片段,字幕生成器将会产生一个字幕

Sentence Localizer

给定一个context O(视频或者音频)和编码后的caption C,句子定位器将在O中回归得到一个时间片段S

首先应用一个cross attention在context和caption中,进行attention feature 融合,然后使用一个全连接神经网络来生成时间片段

 

如果是多模态训练的话,Attc只计算视觉模态和caption的,并且生成视频attention Attv和音频Attention Atta

如果是单模态方法的话,caption attention Attc计算视频或音频和字幕之间的

 

Caption Generator

字幕生成器首先在contexts上应用mask clipping来得到segments,然后使用一个context fusion mechanism来融合裁剪的上下文

Context Fusion

融合视频和音频特征

 

Training Loss

 


 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值