Transformer 中的 Pre-LN 与 Post-LN
最新推荐文章于 2025-06-12 10:27:22 发布
本文讨论了文献中提出的Transformer模型中两种不同的层标准化策略:pre-LN(在残差连接之前)和post-LN(在残差连接之后)。pre-LN被发现可以提升Transformer的稳定性,通过对比两种方式的结构来解析其影响。
本文讨论了文献中提出的Transformer模型中两种不同的层标准化策略:pre-LN(在残差连接之前)和post-LN(在残差连接之后)。pre-LN被发现可以提升Transformer的稳定性,通过对比两种方式的结构来解析其影响。
377
1731
1028

被折叠的 条评论
为什么被折叠?