第12章 图像与语音的结合
斯坦福大学人工智能实验室的李飞飞教授在2017年极客大会上曾经讲过,实现人工智能要有3个要素:语法(syntax)、语义(semantics)和推理(inference),如图12-1所示。

图12-1
语言和视觉是人工智能界非常关注的点,也就是说,在语言和视觉层面,通过语法(对语言来说是语法解析,对视觉来说是三维结构的解析)和语义(对语言来说是语义,对视觉来说是物体动作的含义)作为模型的输入训练数据,最终实现推理的能力,也就是把训练中学习到的能力应用到工作中去,从新的数据中推断出结论。[1]
12.1 看图说话模型
将图像和语言融合,就是“看图说话”。看图说话的目标是,输入一张图片,希望我们训练的看图说话模型能够根据图像给出描述图像内容的自然语言,讲出一个故事。这是一个很大的挑战,因为这需要在图像信息和文本信息这两种不同形式的信息之间进行“翻译”。
本节我们以TensorFlow的官方模型[2]为例,讲解如何训练一个看图说话的模型。这个模型要达到的目标是:我们给出一张图片,机器要给出“A person on a beach flying a kite”的描述,如图12-2所示。
本文介绍了如何使用TensorFlow构建看图说话模型,该模型基于编码器-解码器框架,结合Inception V3和LSTM。利用Microsoft COCO Caption数据集进行训练,并展示了模型对于图像描述的生成效果。
订阅专栏 解锁全文
787

被折叠的 条评论
为什么被折叠?



