图像转文字的技术叫做image Caption。image caption的网络结构其实是基于encoder_decoder结构的。
Image caption将Decoder中的rnn网络换成了cnn网络,将decoder中的rnn网络换成了lstm网络。
网络结构如下图所示:

两个改进的方向:
1. 引入注意力机制
2. 引入高层语义模型
图像转文字的技术叫做image Caption。image caption的网络结构其实是基于encoder_decoder结构的。
Image caption将Decoder中的rnn网络换成了cnn网络,将decoder中的rnn网络换成了lstm网络。
网络结构如下图所示:

两个改进的方向:
1. 引入注意力机制
2. 引入高层语义模型
您可能感兴趣的与本文相关的镜像
Seed-Coder-8B-Base
Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源
904
2935

被折叠的 条评论
为什么被折叠?