Non-Autoregressive Coarse-to-Fine Video Captioning【论文阅读】

本文介绍发表于AAAI 2021的Non - Autoregressive Coarse - to - Fine Video Captioning。针对推理效率低和视觉词汇训练不充分问题,提出双向解码和粗细粒度解码方式。阐述了架构,包括编码器、长度预测器和解码器,还涉及视觉词汇生成、粗细粒度字幕生成及相关实验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Non-Autoregressive Coarse-to-Fine Video Captioning

  • 发表:AAAI 2021
  • idea:(1)针对推理阶段不能并行,推理效率低的问题使用一种双向解码(在bert中不使用sequence mask)。(2)对于视觉词汇训练不充分(由于视觉词汇数量远小于非视觉词汇)导致生成的描述比较宽泛的问题,考虑使用一种coarse-to-fine的解码方式,先生成主要的视觉词汇,然后基于这个“模板”进行填充和细调
1. Architecture

在这里插入图片描述

Encoder

对2D、3D特征做以下处理
在这里插入图片描述

Length Predictor

这里需要预先预测序列的长度L
在这里插入图片描述

Decoder
  • 这里使用了bert,修改了两处:第一不使用sequence mask,这样解码的时候就变成了bi-directional;第二,没看懂,跟随NMT通过整合复制的源信息来增强解码器输入(上图中右侧的虚线)。
  • 同样用了完形填空任务。(这里是mask掉 β l \beta_l βl~ β h \beta_h βh的概率)
2. Visual Word Generation
  • 生成视觉词汇(动词和名词),在上述decoder的基础上。目标就是将序列中所有不是视觉词汇的单词都mask掉
    在这里插入图片描述

  • 优化目标
    在这里插入图片描述
    从左到右依次是长度 L L L损失,完形填空损失以及视觉词汇损失

3. Coarse-to-Fine Captioning

这里真的没看懂。。。
就是迭代优化,感觉很繁琐。。。
后期需要这方面的工作再仔细研读研读。。。

4. Experiments

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值