Length-Controllable Image Captioning
作者
- 中南大学、阿德莱德大学
- 开源地址:https://github.com/bearcatt/LaBERT
解决的问题
- 图像字幕,长度可控的文本生成

摘要
- 现存的方法不能控制生成文本的长度,无法选择粗糙/细致地对图像进行描述。因此这篇文章提出一个简单的length-level embedding实现这个能力。由于自回归特性,模型的计算复杂度与句长成线性增加。本文在三个模型上做了实验:两个自回归SOTA模型with不同类型的decoder,和本文提出的非自回归模型。实验结果在MS COCO上达到了SOTA。代码已开源 https://github.com/bearcatt/LaBERT.
解决方案
- 训练时,学习不同长度的length-level embedding;inference时,生成器被分为不同level使用学到的embedding生成