Transformer 是什么？

最新推荐文章于 2025-03-22 10:54:26 发布

原创

最新推荐文章于 2025-03-22 10:54:26 发布 · 867 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

Transformer 是一种基于**自注意力机制（Self-Attention）**的深度学习模型架构，由Google在2017年的论文《Attention Is All You Need》中首次提出。它彻底改变了自然语言处理（NLP）领域，并成为当今大语言模型（如GPT、BERT、PaLM等）的核心技术基础。

核心思想：用注意力替代循环和卷积

传统的序列模型（如RNN、LSTM）依赖循环结构逐步处理序列数据（例如逐词生成文本），存在两大瓶颈：

难以并行化：必须按顺序计算，训练速度慢。
长距离依赖问题：序列较长时，模型难以记住远距离词之间的关系（例如“猫追老鼠，结果它摔倒了”中的“它”指谁？）。

Transformer通过自注意力机制直接建模序列中所有词之间的关系，一举解决了这两个问题。

Transformer的架构

Transformer由**编码器（Encoder）和解码器（Decoder）**堆叠而成（可根据任务选择使用部分结构），其核心组件如下：

1. 自注意力机制（Self-Attention）

目标：为序列中的每个词分配一个“注意力权重”，表示它与其他词的相关性。
工作原理：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。