- 博客(3)
- 收藏
- 关注
原创 transformer-注意力机制
以上是LLaMA(或Transformer)中Self-Attention和FFN的计算过程。输入矩阵XXX通过线性变换生成QKVQ,K,VQKV。计算注意力分数AsoftmaxQKTdkAsoftmaxdkQKT。使用AAA对VVV加权,得到输出OOO。将OOO输入FFN进行进一步变换。
2025-01-17 12:37:26
1532
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1