第四十六周学习笔记

最新推荐文章于 2024-07-24 22:42:04 发布

luputo

最新推荐文章于 2024-07-24 22:42:04 发布

阅读量428

点赞数

CC 4.0 BY-SA版权

分类专栏：学习笔记

本文链接：https://blog.youkuaiyun.com/luo3300612/article/details/93238259

61 篇文章

订阅专栏

这是第四十六周学习笔记，主要记录了多篇图像描述相关论文。包括欺骗CNN+RNN的image caption模型方法、用unpaired数据训练多风格模型、reformulate优势函数、利用前后信息及提出object guided方法等。下周目标是阅读5篇论文。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables，本文提出了一种欺骗CNN+RNN的image caption模型的方法，将问题形式化为生成结构化输出的学习问题，使用了两个不同的criterion来进行优化
MSCap: Multi-Style Image Captioning with Unpaired Stylized Text，本文使用unpaired的数据训练了一个能够生成多个style的Image caption模型
Self-critical n-step Training for Image Captioning，本文reformulate了image caption的优势函数，并提出了n-step的优势函数
Look Back and Predict Forward in Image Captioning，本文提出了Look Back来利用之前的attention信息，以及Predict Forward来预测以后的词，其动机来源于object与seq的一对多关系以及attention与seq的一对一关系的矛盾性
Intention Oriented Image Captions with Guiding Objects，本文提出了CGO来进行object guided image caption，以图片和期望的object词作为输入，模型可以生成包括object的caption，这个过程是由LSTM-L和LSTM-R分别从Object词两边生成句子完成的

论文阅读5篇