关于transformer理解

本文详细介绍了Transformer模型的架构,包括编码器和解码器的位置编码以及多头注意力机制。位置编码通过泰勒展开和复数思想实现,多头注意力机制则是通过集成多个注意力机制来增强模型表现。此外,还提及了残差连接防止梯度消失以及layernorm相对于BN的优点。虽然Decoder部分的mask部分讲解不够清晰,但整体内容对理解Transformer模型有较大帮助。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习视频地址:

https://www.bilibili.com/video/BV1Di4y1c7Zm?from=search&seid=16737619548015070094

总体来说是这样一个架构。

encoding/decoding:

位置编码详解:

下面这个视频讲的很清晰。

https://www.bilibili.com/video/BV1vA411V71k?from=search&seid=16094804352675454411

大概就是说,通过泰勒展开,设H=I,然后二维位置可以采用复数思想,要做到(5)式,pq乘积可以表示一个相对位置

通过计算发现:

扩展到多维:

 

多头注意力机制:

多头+注意力机制

多头其实就是一个集成,将很多个注意力机制集成起来。

注意力机制:Q,K,V

残差:

防止梯度变为0.

layernorm:

BN有很多缺点:

例如size较小时候,用批量的mean和var估计所有的,可能会不准。

decoder部分的mask部分我觉得讲的不太清楚。。。以后再看。。

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值