2020-10-09

基于注意力机制的文本生成:Image-to-text=-with-Visual-Attention

训练过程:ai_challenage

ai_challenage的训练集有3w张,我只在前30000张训练图像上训练了这个模型。最后一层的特征提取VGG需要大约15GB的内存。训练过程中数据集被分成大小为64的批。一个epoch大约需要100秒。我训练了它大约20个周期,一次约一小时左右训练完成。

训练结果:

coco数据集:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ai_challenage数据集

ai_challenage数据集选择了3w张,跑了2个小时左右,最后损失值大概0.6.
在这里插入图片描述
在这里插入图片描述

  1. 大厅里一个戴着墨镜的女人走在大厅里,可以看出解码端有问题。
  2. 女人,墨镜这样的实体词汇,关注度较好。的,里这样的抽象词语关注度不足。

下周工作计划:

1.加入评价指标
2.阅读论文,找到解决抽象词attention关注度不足的解决方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值