大模型 Transformer介绍-Part1

一支烟一朵花

已于 2024-02-20 10:28:20 修改

阅读量2.4k

点赞数 2

分类专栏：一支烟的硬核AI洞察文章标签： transformer 深度学习自然语言处理

于 2023-06-16 17:54:39 首次发布

本文链接：https://blog.youkuaiyun.com/ccc7574/article/details/131248848

版权

一支烟的硬核AI洞察专栏收录该内容

8 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

文章深入探讨了Transformer架构在NLP中的重要性，特别是其自注意力机制和编码器组件的工作原理。Transformer通过多头注意力和位置编码解决了传统seq-to-seq模型的长期依赖性问题，为模型理解和生成上下文提供了关键支持。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

众所周知，transformer 架构是自然语言处理 (NLP) 领域的一项突破。它克服了 seq-to-seq 模型（如 RNN 等）无法捕获文本中的长期依赖性的局限性。事实证明，transformer 架构是 BERT、GPT 和 T5 及其变体等革命性架构的基石。正如许多人所说，NLP 正处于黄金时代，可以说 transformer 模型是一切的起点。

感兴趣可以一起在社区交流：
https://mp.weixin.qq.com/s/UqR51RIXNZmIXZPIqCN1Gg

Transformer架构
如前所述，需要是发明之母。传统的 seq-to-seq 模型在处理长文本时表现不佳。这意味着模型在处理输入序列的后半部分时往往会忘记从输入序列的前半部分学习的知识。这种信息丢失是不可取的。

尽管像 LSTM 和 GRU 这样的门控架构通过丢弃在记住重要信息的过程中无用的信息，在处理长期依赖性方面表现出一些性能改进，但这仍然不够。世界需要更强大的东西，2015 年，Bahdanau 等人引入了“注意力机制” 。它们与 RNN/LSTM 结合使用来模仿人类行为，以专注于有选择的事物而忽略其余的事物。Bahdanau 建议为句子中的每个词分配相对重要性，以便模型关注重要词而忽略其余词。对于神经机器翻译任务