Show and Tell: A Neural Image Caption Generator

最新推荐文章于 2020-07-22 11:16:48 发布

原创最新推荐文章于 2020-07-22 11:16:48 发布 · 497 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

论文笔记专栏收录该内容

41 篇文章

订阅专栏

本文介绍了一种基于神经网络的图像描述生成技术，该技术能够自动为图像生成描述性文字。通过使用预训练的CNN提取图像特征，并利用LSTM进行解码，实现了从图像到描述的端到端学习。实验表明，该方法在主观评分、BLEU和困惑度等指标上表现出色。

部署运行你感兴趣的模型镜像

Show and Tell: A Neural Image Caption Generator

时间：2015年

Target

Automatically describe the content of an image

Difficulty

image captioning 不仅要得到图片包含的物体，而且要给出它们之间的关系

Inspiration

machine translation with Recurrent Neural Networks(RNNs), an “encoder” RNN reads the source sentence and transforms it into a rich fixed-length vector representation, which in turn in used as the initial hidden state of a “decoder” RNN that generates the target sentence

Contribution

an end-to-end system for image caption

Idea

在这里插入图片描述

将机器翻译中的encoder换成 pre-trained 的 CNN来提取图片信息，再用LSTM作为decoder
使用了word embedding
损失函数对encoder、decoder和word embedding同时做更新
Inference 的时候使用 Beam Search

Model

在这里插入图片描述
损失函数

实际上就是分类的负对数损失

Evaluation Metrics

subjective score
BLEU
perplexity

训练细节

使用ImageNet预训练模型避免过拟合
使用在大型文集上初始化的词向量避免过拟合的效果不明显，所以不这样做
dropout、ensembling
SGD with fixed lr and no momentum
CNN参数不变
embeding维度512，LSTM memory也是
描述标签预处理，保留出现次数超过五次的词

Terminology

NIC: Neural Image Caption
BLEU
perplexity

问题

CIDEr

您可能感兴趣的与本文相关的镜像

Wan2.2-T2V-A5B

Wan2.2-T2V-A5B

文生视频

Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力

博客等级

码龄10年

159
原创

274
点赞

910
收藏

155
粉丝

关注

私信

TA的精选

新「AAAI2021」Image Captioning 图像描述生成，性能SoTA！
4019 阅读
新动手搭建一个基于GMM-HMM的嵌入式命令词识别系统
1694 阅读
热 Pytorch 默认参数初始化
23639 阅读
热 Manjaro-i3的安装
20679 阅读
热对AUC计算公式和几何意义的理解
11899 阅读

TA的历史创作历程

分类专栏

论文 1篇
pytorch 5篇
学习笔记 61篇
OpenCV 5篇
【Python高级编程】笔记 1篇
Python 3篇
Web 1篇
some math 1篇
论文笔记 41篇
会议笔记 1篇
cheatsheet 5篇
C++

展开全部收起

上一篇：: BLEU笔记

下一篇：: Deep Visual-Semantic Alignments for Generating Image Descriptions

AI算力推荐

Wan2.2-T2V-A5B

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力

文生视频

Wan2.2

目录

展开全部

收起

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。