Transformer视频学习过程的截图和文字解释

视频来源1:Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

(由于transformer是并行处理,因此Transformer需要位置编码告诉单词出现的位置在哪)

该层为注意力层,表示对输入的词向量投入多少注意力attention

残差网络缓解了梯度消失,使得RNN可以往深了做

Masked↑

视频来源2:

怎么计算a↓

(从一整个sequence→得到b1、b2…的过程如上)

矩阵角度解释过程↓

接下来,对于self-attention,句子中每个a都是并行进行的,并不知道各自ai的位置咨讯,我们是为了方别理解添加了ai中的位置“i”,而计算机并不知道。因此要添加位置信息参数

Transformer:seq2seq的模型

Transformer的应用:语音识别 翻译 多标签分类 物体识别

Encoder

Decoder

Masked↑ 为了保证训练和预测时,看到的数据保持一致 例如↓

Why masked?decoder的运作方式是一个一个输出的(和self-attention不一样,self-attention是一次性几个数据全输入到model里没有位置距离远近的) 先有a1再有a2,计算b2的时候还没有a3、a4考虑进来

Encoder&Decoder传递信息:

Training阶段↓

Copy mechanism:看不懂的话,机器会进行复制

Guided attention:语音合成 输入和输出结果会自动联合

Beam search:需要有创造力 有很多答案的类型 更适合 如给出故事的前段自己弥补后面的 期待随机性

Scheduled sampling训练的时候偶尔给错误的东西反而学的很好 以防一步错步步错

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值