20、图像自动字幕与人体姿态估计的深度学习实现

图像自动字幕与人体姿态估计的深度学习实现

1. 图像自动字幕模型构建

1.1 模型架构

图像自动字幕模型的架构灵感来源于 “Show, Attend and Tell” 论文。首先,从 Inception - v3 的较低卷积层提取特征,得到形状为 (8, 8, 2048) 的向量,然后将其压缩为 (64, 2048) 的形状。该向量会通过由单个全连接层组成的 CNN 编码器,接着使用 RNN(这里是 GRU)对图像进行关注以预测下一个单词。

def gru(units):
    if tf.test.is_gpu_available():
        return tf.keras.layers.CuDNNGRU(units, 
                                        return_sequences=True, 
                                        return_state=True, 
                                        recurrent_initializer='glorot_uniform')
    else:
        return tf.keras.layers.GRU(units, 
                                return_sequences=True, 
                                return_state=True, 
                               
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值