Transformer
文章平均质量分 64
Transformer相关的分享
地球被支点撬走啦
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer 中的 Pre-LN 与 Post-LN
文献“On Layer Normalization in the Transformer Architecture”中提出了一种 pre-LN 的层标准化方法,即把 LN 加在残差连接residual之前,Transformer中原始的层标准化为post-LN,即把 LN 在残差连接residual之后,这样能够提升 Transformer 的稳定性。Post-LN 的方式如下图所示。Pre-LN 的方式如下图所示。Pre-LN 是将每个子层的结束位置的层标准化提前到了该层的开始位置。原创 2024-04-13 23:39:16 · 2193 阅读 · 0 评论 -
Transformer中的自注意力机制计算过程分析
自注意力机制(Self-Attention)顾名思义就是关注单个序列内部元素之间的相关性,不仅可以用于 seq2seq 的机器翻译模型,还能用于情感分析、内容提取等场景。因此分析网络如何表达出“单个序列”与“内部元素”之间的相关性这一问题可以回答开头所述的大部分疑问。原创 2024-03-02 20:13:40 · 2256 阅读 · 0 评论 -
Transformer 学习路线说明
模型的代码可以在博客[9]里找到,此博客根据文献[3]的内容撰写了代码,而且是根据文献每一段的内容附上相应代码,因此可以清晰知道每一部分代码实现了什么功能,对应原文什么模块。Transformer 与文献[1, 2]中的注意力机制的原理相同但实现方式有区别,[1, 2]中的注意力机制是依赖于类 RNN 网络的隐层输出得到的,而 Transformer 中的自注意力是直接从输入数据中计算得出的。文献[6] 对近些年来产生的 Transformer 模型进行了分类,但主要关注attention模块的效率问题。原创 2024-02-25 23:55:23 · 1438 阅读 · 0 评论
分享