TensorFlow技术解析与实战 12 图像与语音的结合

本文介绍了一种看图说话模型,该模型能根据输入的图片生成相应的自然语言描述。采用编码器-解码器框架,利用InceptionV3进行图像编码,并通过LSTM网络解码为文本描述。介绍了模型训练的目标函数及所需数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    实现人工智能要有3个要素:语法、语义和推理

    语音和视觉是人工智能界非常关注的点,也就是说,在语言和视觉层面,通过语法(对语言来说是语法解析,对视觉来说是三维结构的解析)和语义(对语言来说是语义,对视觉来说是物体动作的含义)作为模型的输入训练数据,最终实现推理的能力,也就是把训练中学习到的能力应用到工作中去,从新的数据中推断出结论。

12.1 看图说话模型

     输入一张图片,希望我们训练的看图说话模型能够根据图像给出描述图像内容的自然语言,讲出一个故事。这是一个很大的挑战,因为这需要在图像信息和文本信息这两种不同形式的信息之间进行“翻译”。

     Tensorflow官方模型https://github.com/tensorflow/models/tree/master/im2txt


原理:采用编码器-解码器框架,先将图像编码成固定的中间矢量,然后解码成自然语言的描述。这里编码器采用的是Inception V3图像识别模型,解码器采用的是LSTM网络


   {s0, s1, ..., sn-1}是字幕的词,{weS0, weS1, ..., weSn-1}是它们对应的词嵌入向量,LSTM的输出{p1, p2, ..., pn}是由句子中的下一个词生成的概率分布。{logP1(S1), logP2(S2), ... ,logPn(Sn)}是正确词在每一个步骤的对数似然,这几个值的总和取负数是我们模型的最小化目标。

   Microsoft COCO Caption数据集http://mscoco.org/




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值