1 RNN
transfomer利用了注意力,注意力结合了RNN
1.1 CNN与RNN
RNN加入了时间信息(序列)

RNN 能动态的更新信息

1.2 RNN示意图


1.3 RNN与LSTM
——拓展,时序超过十步就记不住了,导致长期依赖以及梯度问题


RNN架构

LSTM架构




Ct:传递长期记忆,更新短期记忆
长期记忆链与短期记忆链相互更新
二维看三维图像


遗忘门:删除日记内容
输入门:增添日记内容
输出门:翻到哪一页读给隐藏层听
”sigmoid控制更新信息的比例,tanh控制大小和方向“ sigmoid的值域是0到1,值输入值越大,输出值越接近1,相反则接近0。tanh的值域是-1到1,一样的道理,由正负控制参数变化方向。


【【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑】【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑_哔哩哔哩_bilibili
【【数之道 09】揭开循环神经网络RNN模型的面纱】【数之道 09】揭开循环神经网络RNN模型的面纱_哔哩哔哩_bilibili
1.3.1 LSTM与GRU
GRU:阅后即焚,只保留大脑中的记忆






不断融合更新(背诵),有效解决长期依赖问题
【【GRU 模型】三招让你对她念念不忘】【GRU 模型】三招让你对她念念不忘_哔哩哔哩_bilibili
1.4 RNN灵活性(应用)




机器翻译,文本翻译
2 Transformer
2.1 transformer模型




细节:



2.2 attention
加权求和——理解context

动态翻译



两个RNN结构:

压缩成相同长度编码C——精度下降


RNN顺序结构不方便,难以并行计算。attention已经进行了权重打分


人类视觉系统,有限注意力集中在重点信息上
attention三大优点


【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓_哔哩哔哩_bilibili
发展过程
关注到attention

越发走红

2.3 self attention详解
经过一系列矩阵计算,实现了单词间的权重计算




矩阵语言:

2.4 多头注意力机制
multi-head attention中使用了八个不同的权重矩阵(一件事找八个人干)——消除Q,K,V初始值的影响

【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili
附—BERT
encoder:上下文理解,语句拆解对照表
decoder:从一种语言到另外一种语言的映射,语言组装对照表
3.4亿个参数,无数个编码器组成






【【BERT模型】暴力的美学,协作的力量】【BERT模型】暴力的美学,协作的力量_哔哩哔哩_bilibili
2.5 Vit ——vision transformer
同bert

【【ViT模型】Transformer向视觉领域开疆拓土……】【ViT模型】Transformer向视觉领域开疆拓土……_哔哩哔哩_bilibili
3 附—CNN与Transformer


transfomer向CV的进军:





参考链接
1.【【循环神经网络】5分钟搞懂RNN,3D动画深入浅出】【循环神经网络】5分钟搞懂RNN,3D动画深入浅出_哔哩哔哩_bilibili
2.【【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑】【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑_哔哩哔哩_bilibili
3.【【数之道 09】揭开循环神经网络RNN模型的面纱】【数之道 09】揭开循环神经网络RNN模型的面纱_哔哩哔哩_bilibili
4.【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓_哔哩哔哩_bilibili
5.【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili
6.【【BERT模型】暴力的美学,协作的力量】【BERT模型】暴力的美学,协作的力量_哔哩哔哩_bilibili
7.【【ViT模型】Transformer向视觉领域开疆拓土……】【ViT模型】Transformer向视觉领域开疆拓土……_哔哩哔哩_bilibili
474

被折叠的 条评论
为什么被折叠?



