
transformer
文章平均质量分 95
Lament King
这个作者很懒,什么都没留下…
展开
-
Transformer由入门到精通(二):Transformer的搭建与理解
上一篇文章我们介绍了Transfomer中涉及到的相关知识,主要是注意力机制,有了上一篇文章的基础以后,我们就可以来手动搭建 transformer 了,我们边写代码边讲解。本文的代码参考借鉴了哈佛大学的 《The Annotated Transformer》,但更加容易理解。本文通过逐步搭建Transformer模型的方式,逐个讲解了transformer的零部件,然后又介绍了mask,还介绍了 Decoder 中的自注意力机制。原创 2025-04-06 16:11:14 · 1191 阅读 · 0 评论 -
Transformer由入门到精通(一):基础知识
我之前看transformer的论文《Attention Is All You Need》,根本看不懂,特别是QKV注意力机制那部分。后面在知乎上看到名为“看图学”的博主的一篇回答,按他回答阅读了一些论文,搞明白了 transformer 中的注意力机制的发展演变,才对 transformer 中的注意力机制有了了解,在此向他表示感谢!本文并不是面对零基础的同学,在学习这篇文章之间,需要知道什么是RNN、LSTM、GRU,什么是词嵌入。编码器:h0=0hj=RNNGRU(hj−1,xj)c=tanh原创 2025-04-04 18:23:53 · 956 阅读 · 0 评论