目录
第一部分:原理再探——不止于 Attention(Q, K, V)
在上一篇文章中,我们初步揭开了缩放点积自注意力(Scaled Dot-Product Attention)的神秘面纱。然而,要真正领会其在 Transformer 中的威力,我们必须更进一步,理解它如何从输入数据中诞生,如何通过“多头”机制实现能力的升维,以及最终如何与模型的其余部分无缝集成。
第一部分:原理再探——不止于 Attention(Q, K, V)


目录
第一部分:原理再探——不止于 Attention(Q, K, V)
在上一篇文章中,我们初步揭开了缩放点积自注意力(Scaled Dot-Product Attention)的神秘面纱。然而,要真正领会其在 Transformer 中的威力,我们必须更进一步,理解它如何从输入数据中诞生,如何通过“多头”机制实现能力的升维,以及最终如何与模型的其余部分无缝集成。



被折叠的 条评论
为什么被折叠?