CS231n李飞飞计算机视觉循环神经网络

最新推荐文章于 2023-12-31 01:40:54 发布

原创最新推荐文章于 2023-12-31 01:40:54 发布 · 559 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

CS231n 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了循环神经网络（RNN）及其变体LSTM在计算机视觉中的应用，如图像标注。RNN能处理序列数据，而LSTM通过其特殊的门控机制避免了梯度消失问题，提升了模型性能。LSTM包含输入、遗忘和输出门，以更精细的方式控制信息流动。总结中提到，RNN简单但可能存在梯度问题，而LSTM通过加法操作改善了这一状况。

部署运行你感兴趣的模型镜像

循环神经网络

循环神经网络：Recurrent Nerual Network，简称RNN。

RNN可以有很多种结构，包括一对一的Vanilla网络，一对多的图像字幕，多对一的情感分类（处理一定数量的按顺序排列的词，然后试着把句子里的词，按正面和负面情感分类），多对多的机器翻译（将一个序列翻译成另一个序列）、视频分类。

RNN例子

RN有其自己内部的状态，但是在每个时间点接收内容，然后结合函数来修改自己的状态，也就是说影响RNN状态的因素不止有自己的状态还有接受内容。

可以将RNN的状态表达成这样一个函数：

其中 $h_{t}$ 表示RNN在t时刻的状态， $x_t$ 表示在t时刻RNN收到的内容。 $f_w$ 表示参数为w的函数。

$W_{hh}$ 是对 $h_{t-1}$ 的权重， $W_{xh}$ 是对 $x_{t}$ 的权重。

图像标注

考虑一个图像标注的网络

网络分为两部分，CNN和RNN，CNN用来处理图像，RNN用来负责建立序列模型。

将图像放入CNN中，得到v，然后利用第二个公式计算出h（这里 $W_{ih}$ 表示图像信息进入RNN的第一步的情况。）

而 $y_0$ 是序列的第一个单词的分布情况，假设根据 $y_0$ ，发现最可能出现的词语是“稻草”。

然后将“稻草”对应的向量放入ＲＮＮ的底部，得到序列中第二个单词的描述 $y_1$ “帽子‘”，

然后将“帽子”对应的向量放入ＲＮＮ的底部，依次循环直到得到一个结束标志。最终RNＮ价格这张图片描述成草帽。

ｙ向量的维数等于单词表的数目加一，这是因为考虑到了结束标志。

LSTM

RNN只有一个隐藏状态h，而LSTM包含多个隐藏状态h,c。

其中i表示input，f表示forget，o表示output，f,i,o的值是０～１，g的值是－１～１

$C_t$ 表示细胞状态， $C_t$ 的更新依赖f（忘记门）和i（输入门）两个变量，首先 $C_{t-1}$ 与f逐元素相乘，舍弃 $C_{t-1}$ 的部分信息，f中为1的元素对应的 $C_{t-1}$ 信息得以完全保留，为0的元素对应的 $C_{t-1}$ 信息会被丢弃。然后，i与g逐元素相乘，表示细胞状态受输入i的影响。两者加和得到新的目标状态。

而 $C_t$ 再来影响 $h_t$ ，计算o（输出门）与 $C_t$ 的点积，然后得到 $h_t$ 。

计算过程如下：

对比LSTM和RNN

RNN全部的隐藏状态影响下一状态。而LSTM只选择部分隐藏状态影响下一状态。
RNN可能会发生梯度消失的情况，而LSTM因为有加法的原因回均匀地分配梯度，不会产生梯度消失的问题。

总结

RNN设计灵魂
RNN简单但效果不够好
LSTM的加法会使梯度流加速
RNN梯度的反向传播会造成梯度爆炸或梯度消失，梯度爆炸问题可以通过梯度裁剪来解决，梯度消失问题就通过增加额外的加法解决（类似LSTM）

参考：https://www.cnblogs.com/coldyan/p/8385021.html

您可能感兴趣的与本文相关的镜像

GPT-SoVITS

GPT-SoVITS

AI应用

GPT-SoVITS 是一个开源的文本到语音（TTS）和语音转换模型，它结合了 GPT 的生成能力和 SoVITS 的语音转换技术。该项目以其强大的声音克隆能力而闻名，仅需少量语音样本（如5秒）即可实现高质量的即时语音合成，也可通过更长的音频（如1分钟）进行微调以获得更逼真的效果

「已注销」

博客等级

码龄7年

156
原创

128
点赞

609
收藏

186
粉丝

关注

私信

TA的精选

大家在看

TA的历史创作历程

分类专栏

PyTorch 7篇
latex 1篇
numpy 2篇
软件安装及配置 3篇
深度学习 1篇
逻辑 1篇
CS231n 9篇
人脸超分辨率 2篇
凸优化 53篇
图像超分辨率 8篇
lua 6篇
leetcode 61篇
线性代数 3篇
图像去噪 1篇

展开全部收起

上一篇：: 凸优化第九章无约束优化　9.3梯度下降方法

下一篇：: lua学习　第一章语言要点

AI算力推荐

GPT-SoVITS

GPT-SoVITS 是一个开源的文本到语音（TTS）和语音转换模型，它结合了 GPT 的生成能力和 SoVITS 的语音转换技术。该项目以其强大的声音克隆能力而闻名，仅需少量语音样本（如5秒）即可实现高质量的即时语音合成，也可通过更长的音频（如1分钟）进行微调以获得更逼真的效果

AI应用

目录

展开全部

收起

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。