ECCV2020｜ Length-Controllable Image Captioning

yyyyyyyyXu

于 2021-01-12 11:03:27 发布

阅读量707

点赞数

分类专栏：阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40711769/article/details/112511004

版权

该研究解决了图像字幕生成中无法控制长度的问题，提出了一种length-level embedding方法，使得模型能根据需要生成不同长度的描述。在三个模型（包括自回归SOTA模型AoANet和VLP，以及提出的非自回归LaBERT）上进行了实验，于MS COCO数据集上取得了最佳效果。LaBERT通过非自回归解码器提高了长文本生成的效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Length-Controllable Image Captioning

作者

中南大学、阿德莱德大学
开源地址：https://github.com/bearcatt/LaBERT

解决的问题

图像字幕，长度可控的文本生成

摘要

现存的方法不能控制生成文本的长度，无法选择粗糙/细致地对图像进行描述。因此这篇文章提出一个简单的length-level embedding实现这个能力。由于自回归特性，模型的计算复杂度与句长成线性增加。本文在三个模型上做了实验：两个自回归SOTA模型with不同类型的decoder，和本文提出的非自回归模型。实验结果在MS COCO上达到了SOTA。代码已开源 https://github.com/bearcatt/LaBERT.

解决方案

训练时，学习不同长度的length-level embedding；inference时，生成器被分为不同level使用学到的embedding生成

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。