1.Transformer 模型架构
核心模块:注意力
整个网络完全由注意力组成
编码器-解码器结构
**编码器:**将输入序列变换为隐藏层特征
**解码器:**将隐藏层特征变换为输出序列
在编码器-解码器中,Q、K、V均为自身前一层的输出(名称self-attention的由来)
唯一不同:
Q是前一层的输出,K、V是编码器的输出
参考资料:
(1)人大赵鑫老师《大语言模型》等书籍
1.Transformer 模型架构
核心模块:注意力
整个网络完全由注意力组成
编码器-解码器结构
**编码器:**将输入序列变换为隐藏层特征
**解码器:**将隐藏层特征变换为输出序列
在编码器-解码器中,Q、K、V均为自身前一层的输出(名称self-attention的由来)
唯一不同:
Q是前一层的输出,K、V是编码器的输出
参考资料:
(1)人大赵鑫老师《大语言模型》等书籍