Transformer 是什么?

Transformer 是一种基于**自注意力机制(Self-Attention)**的深度学习模型架构,由Google在2017年的论文《Attention Is All You Need》中首次提出。它彻底改变了自然语言处理(NLP)领域,并成为当今大语言模型(如GPT、BERT、PaLM等)的核心技术基础。


核心思想:用注意力替代循环和卷积

传统的序列模型(如RNN、LSTM)依赖循环结构逐步处理序列数据(例如逐词生成文本),存在两大瓶颈:

  1. 难以并行化:必须按顺序计算,训练速度慢。

  2. 长距离依赖问题:序列较长时,模型难以记住远距离词之间的关系(例如“猫追老鼠,结果它摔倒了”中的“它”指谁?)。

Transformer通过自注意力机制直接建模序列中所有词之间的关系,一举解决了这两个问题。


Transformer的架构

Transformer由**编码器(Encoder)解码器(Decoder)**堆叠而成(可根据任务选择使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值