ECCV2020| Length-Controllable Image Captioning

该研究解决了图像字幕生成中无法控制长度的问题,提出了一种length-level embedding方法,使得模型能根据需要生成不同长度的描述。在三个模型(包括自回归SOTA模型AoANet和VLP,以及提出的非自回归LaBERT)上进行了实验,于MS COCO数据集上取得了最佳效果。LaBERT通过非自回归解码器提高了长文本生成的效率和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Length-Controllable Image Captioning

作者

解决的问题

  • 图像字幕,长度可控的文本生成

摘要

  • 现存的方法不能控制生成文本的长度,无法选择粗糙/细致地对图像进行描述。因此这篇文章提出一个简单的length-level embedding实现这个能力。由于自回归特性,模型的计算复杂度与句长成线性增加。本文在三个模型上做了实验:两个自回归SOTA模型with不同类型的decoder,和本文提出的非自回归模型。实验结果在MS COCO上达到了SOTA。代码已开源 https://github.com/bearcatt/LaBERT.

解决方案

  • 训练时,学习不同长度的length-level embedding;inference时,生成器被分为不同level使用学到的embedding生成
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值