Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

最新推荐文章于 2023-10-25 22:57:03 发布

luputo

最新推荐文章于 2023-10-25 22:57:03 发布

阅读量1.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：论文笔记

本文链接：https://blog.youkuaiyun.com/luo3300612/article/details/89969715

论文笔记专栏收录该内容

41 篇文章

订阅专栏

提出了一种基于注意力机制的神经网络模型，用于自动生成图像描述。模型包含软注意力和硬注意力两种模式，通过卷积网络提取图像特征并利用LSTM进行解码，生成描述。硬注意力机制通过采样确定关注的图像区域，而软注意力则计算各区域的权重。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

原文地址

时间：2016年

概括

提出了两个attention based model that automatically learns to describe the content of images，一个 soft attention 和一个 hard attention，

Model

encoder

网络输出

在这里插入图片描述
$y_i$ 是输出的词， $K$ 是caption的长度

作者使用卷积网络抓取L个D维特征向量
在这里插入图片描述
为了得到特征向量与图片具体位置的对应，作者从浅层的卷积核中提取了特征而非全连接层，通过输入 $a$ 的子集，这使得decoder能够选择性地专注于图片的某个部分

decoder

作者使用LSTM作为decoder，每一步生成一个词，
在这里插入图片描述
其中 $z$ 是context vector，计算方式如下， $a_{ti}$ 可以视作 $\alpha_i$ 在 $t$ 时刻对于生成正确单词的重要程度

$\phi$ 返回一个向量，具体将在之后讨论

LSTM的初始细胞状态和隐藏状态由两个MLPs预测
在这里插入图片描述
（不同位置的特征向量加在一起能表示什么呢…）

使用deep output layer来计算词的概率在这里插入图片描述
其中 $L_*,E$ 都是待学习的参数

Stochastic “Hard” 和 Deterministic “Soft” Attention

这里给出了context vector $z$ 的计算方式

Stochastic “Hard” Attention

$s_t$ 代表模型在生成第 $t$ 个词时focus的位置变量， $s_{t,i}=1$ ，当第 $i$ 个location（总共L个）用来作为视觉特征，否则为0，这是hard的含义，通过将attention location当作中间的隐变量，我们可以得到被 ${a_i}$ 参数化的多项分布
在这里插入图片描述
定义一个新的损失函数 $L_s$ ，它是marginal log-likelihood $\log(y|a)$ 的下界，可以通过优化下界来优化原损失函数

通过蒙特卡罗采样来得到梯度的估计值，这可以通过采样 $s_t$ 得到

为了处理estimator variance的问题，需要采取一系列措施，最终的损失函数是
在这里插入图片描述