本文探讨了图文生成算法的优化方法,包括使用Multi-Modal RNN、Table Projection编码、Show and Tell、Show Attend and Tell及Top-Down Bottom-Up Attention等模型。重点介绍了Attention机制在提升图像不同位置文字生成效果的作用,同时指出了LSTM学习量过载的问题。
Multi-Modal RNN Table Projection 为文字的编码形式 右下角的Fully Connected为提取图片的特征值 Show and Tell Show Attend and Tell 加入attention机制,让图像的不同位置生成不同的文字 缺点:lstm的学习量过载,要学习如何学习生成文本,又要去学习Attention机制 Top-Down Bottom-Up Attention 细化结构