tensorflow(神经网络)学习笔记(五)图像生成文本之模型介绍（笔记）

最新推荐文章于 2025-03-17 17:44:36 发布

cmzz

最新推荐文章于 2025-03-17 17:44:36 发布

阅读量670

点赞数

分类专栏：机器学习笔记文章标签： tensorflow 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40965177/article/details/103056251

版权

机器学习同时被 2 个专栏收录

23 篇文章

订阅专栏

16 篇文章

订阅专栏

本文探讨了图文生成算法的优化方法，包括使用Multi-Modal RNN、Table Projection编码、Show and Tell、Show Attend and Tell及Top-Down Bottom-Up Attention等模型。重点介绍了Attention机制在提升图像不同位置文字生成效果的作用，同时指出了LSTM学习量过载的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

解决文本多次出现的方法

解决短句子的问题

取概率最高的词组成句子：显然句子的平滑度不是很好

下面才是最优的的结果

n为任意。

ex:如下，n取4

相关模型

Multi-Modal RNN
Table Projection 为文字的编码形式
在这里插入图片描述
右下角的Fully Connected为提取图片的特征值

Show and Tell

Show Attend and Tell
加入attention机制，让图像的不同位置生成不同的文字

缺点：lstm的学习量过载，要学习如何学习生成文本，又要去学习Attention机制
在这里插入图片描述
Top-Down Bottom-Up Attention

细化结构

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。