Image captioning(三)-WITH ATTENTION

本文在上篇的基础上介绍了两种注意力机制用于图像描述生成:随机注意力和确定性注意力。通过注意力机制,模型可以关注图像的不同部分,提高描述的准确性。随机注意力通过样本从分布中生成权重,而确定性注意力则直接计算期望。实验结果显示,这两种方法能有效提升模型的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

背景我们已经介绍了,现在我们上篇文章的基础上面引入比较流行的Attention机制
说下本篇文章的贡献:

  1. image captioning中使用同一种框架引入两种atttention机制。
  2. 可以洞察模型观察的点在哪里where, 以及观察的是什么what
  3. 代码我只会演示第二种attention 机制

模型

  1. image encoder
    第一层还是卷积层来处理图像信息,但是这里不同的是,我们不像上一篇提到的那样直接复用已有的模型,这里直接处理原始的图片。
    为什么要处理原始图片?因为如果要做attention,那么势必要在decoder阶段需要知道聚焦在图片的哪个位置,这样我们就不能直接用encoder出来的很高级的单向量了
    需要抽取出来一些原始的特征,每个特征能够表征图像的某一部分,这样在做decoder的时候,attention机制可以知道可以聚焦在哪一块,这样就提高了decoder描述的准确性
    假设我们处理图片后生成L=196个D=512维的向量:

    a=(a1,...,aL),aiRD 
  2. decoder
    主要框架我们还是用LSTM,为了引入attention,我们稍微做下变形,就是在原有的state基础上面再增加一个图片的content的信息
    假设需要decoder的序列为:

    经典的LSTM结构:
    it ft ot gt Ct ht=σ(wi.[Eyt1,ht1]+bi)=σ(wf.[Eyt1,ht1]+bf)=σ(wo.[Eyt1,ht1]+bo)=tanh(wc.[Eyt1,ht1]+bc)=ftCt1+itgt=ottanh(Ct)

    _, (c, h) = lstm_cell(inputs=x, axis=1), state=[c, h])

    调整后:
    it ft ot gt Ct ht =σ(wi.[Eyt1,ht1,ẑ t]+bi)=σ(wf.[Eyt1,ht1,ẑ t]+bf)=σ(wo.[Eyt1,ht1,ẑ t]+bo)=tanh(wc.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值