一、深入理解大型语言模型与提示工程本质
1.1 Transformer 架构与自注意力机制
-
模型结构详解:Transformer 由编码器(Encoder)与解码器(Decoder)两部分构成,或仅含多层自注意力模块(如 GPT 系列)。核心是多头自注意力(Multi-Head Attention),它通过并行注意力头学习不同子空间的依赖关系,相较于 RNN/LSTM 在捕捉长距离依赖上具备天然优势。
-
自注意力数学原理:
Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk