CNN+LSTM：看图说话

最新推荐文章于 2025-07-26 02:46:41 发布

weixin_30773135

最新推荐文章于 2025-07-26 02:46:41 发布

阅读量2.2k

点赞数 1

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yumoye/p/10869046.html

本文探讨了深度学习中CNN和LSTM的联合应用，用于看图说话任务。通过CNN提取图像特征，LSTM生成描述。文章介绍了网络模型的seq2seq结构，并讨论了训练与预测阶段的差异，以及实验中的效果评价、过拟合避免策略和实验结果。

看图说话——CNN和LSTM的联合应用

https://blog.youkuaiyun.com/xinzhangyanxiang/article/details/79117869

看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取，利用LSTM来生成描述。但这算是深度学习中热门的两大模型为数不多的联合应用了。

本文是参考文献[1]的笔记，论文是比较早的论文，15年就已经发表了，不新。但还是想写下来它的细节以备后用。

关于CNN(卷积神经网络)和LSTM(长短期记忆网络)的细节，本文不再赘述其细节。读者们需要了解的是：

卷积神经网络是一种特别有效的提取图像特征的手段。一个在大数据集如ImageNet上预训练好的模型能够非常有效的提取图像的特征。
长短期记忆网络能够处理长短不一的序列式数据，比如语言句子

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。