前言
本文为学习记录,其中的内容和图片多有借鉴其他文章的内容,相关博文在参考文献处一并给出链接。
整体架构
Encoder
Decoder
参考文献
[1]Self-Attention和Transformer
[2]详解Transformer (Attention Is All You Need)
[3]强烈推荐!台大李宏毅自注意力机制和Transformer详解!
[4]The Illustrated Transformer
[5]Transformer中Q,K,V的理解
[6]transformer的self_attention中(KQV)中的V为什么也要乘一个Wv矩阵?
[8]transformer中QKV的通俗理解(渣男与备胎的故事)
[9]The Annotated Transformer
本文是一篇关于Transformer模型的学习笔记,详细介绍了Transformer的整体架构,包括Encoder和Decoder部分,并引用了多个权威资料进行深入讲解。重点探讨了Self-Attention机制以及Q、K、V在Transformer中的作用,帮助读者理解这一关键组件的工作原理。
2289

被折叠的 条评论
为什么被折叠?



