《基于深度学习的图像标题生成算法及应用》 阅读笔记

本文探讨了基于深度学习的图像标题生成算法,包括卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制。通过VGG网络提取图像特征,结合LSTM进行解码生成标题,同时介绍了past-feeding和past-attention两种算法,强调了注意力模型在减少无用信息干扰中的作用。实验展示了算法在验证码识别上的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Reference:

      朱丹翔. 基于深度学习的图像标题生成算法及应用[D].哈尔滨工业大学,2017.

           意义:已有研究都着眼于标题句子中单词和图像内容对应,尚缺乏已输出图像内容对于后续输出的影响。传统验证码识别系统大多都是需要先使用数字图像处理的方法对验证码图片进行处理,需要人工操作,系统的移植性也不高。本文基于标题生成的算法,将验证码图片作为输入,字符作为标题句子,把该问题转换为验证码标题识别问题,发挥深度学习端对端优势。

深度学习相关基础知识

    1. 多层感知机

    归根结底,深度学习就是神经网络。一个标准的神经网络包含了许多简单的相互连接的小处理器,小处理器通常被称为神经元。已有的神经元不断叠加下一层神经网络,形成多层神经网络。

    2. 卷积神经网络

      卷积神经网络是对通过卷积和池化来提取特征的神经网络的统称。

      2.1 卷积操作

        卷积和池化。

      卷积数学本质是定积分,一个函数在另一个函数上的加权叠加。对应到神经网络中,卷积操作的第一个函数是图片或特征图,第二个函数是卷积核,将特征图在卷积核上加权叠加就能生成新的特征图。卷积核有多个就会生成多张特征图。

      公式(2-6)是卷积在神经网络中的前向传播公式(此处未给出)。卷积神经网络中的卷积核可以自动发现图像中的细节纹理特征,细节纹理特征不断组合可以生成更加高级的抽象特征。如一例子,底层图像特征是图像纹理信息,随层数增多,特征抽象程度逐渐增加,高级抽象特征对最终图像分类任务很有帮助。

    &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值