Datawhale25年6月组队学习:happyLLM Task3 Transformer架构基础

1.Transformer 模型架构
核心模块:注意力
整个网络完全由注意力组成

图1 编码器和解码器结构

编码器-解码器结构
**编码器:**将输入序列变换为隐藏层特征
**解码器:**将隐藏层特征变换为输出序列

在编码器-解码器中,Q、K、V均为自身前一层的输出(名称self-attention的由来)
唯一不同:
Q是前一层的输出,K、V是编码器的输出

参考资料:
(1)人大赵鑫老师《大语言模型》等书籍

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值