Transformer视频学习过程的截图和文字解释

九格魔方

于 2024-06-17 15:03:08 发布

阅读量363

点赞数 3

分类专栏：深度学习文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40988805/article/details/139743126

版权

深度学习专栏收录该内容

2 篇文章

订阅专栏

视频来源1：Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

(由于transformer是并行处理，因此Transformer需要位置编码告诉单词出现的位置在哪)

该层为注意力层，表示对输入的词向量投入多少注意力attention

残差网络缓解了梯度消失，使得RNN可以往深了做

Masked↑

视频来源2：

怎么计算a↓

（从一整个sequence→得到b1、b2…的过程如上）

矩阵角度解释过程↓

接下来，对于self-attention，句子中每个a都是并行进行的，并不知道各自ai的位置咨讯，我们是为了方别理解添加了ai中的位置“i”，而计算机并不知道。因此要添加位置信息参数

Transformer：seq2seq的模型

Transformer的应用：语音识别翻译多标签分类物体识别

Encoder

Decoder

Masked↑ 为了保证训练和预测时，看到的数据保持一致例如↓

Why masked？decoder的运作方式是一个一个输出的（和self-attention不一样，self-attention是一次性几个数据全输入到model里没有位置距离远近的）先有a1再有a2，计算b2的时候还没有a3、a4考虑进来

Encoder&Decoder传递信息：

Training阶段↓

Copy mechanism：看不懂的话，机器会进行复制

Guided attention：语音合成输入和输出结果会自动联合

Beam search：需要有创造力有很多答案的类型更适合如给出故事的前段自己弥补后面的期待随机性

Scheduled sampling训练的时候偶尔给错误的东西反而学的很好以防一步错步步错

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。