TransFormer第三章

czrbarry

于 2025-02-18 19:07:41 发布

阅读量1.4k

点赞数 28

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/czrbarry/article/details/145711824

Encoder 组成部分如图

工作流程：Transformer中的编码器（Encoder）负责将输入序列转换为富含上下文信息的特征表示，工作流程如下

1. 输入处理

输入嵌入（Embedding）：将输入词元（如单词或子词）转换为高维向量（通常维度为512或更高）。
位置编码（Positional Encoding）：通过正弦和余弦函数生成的固定模式，为词元添加位置信息（如公式 PE(pos,2i)=sin⁡(pos/100002i/d)PE(pos,2i)=sin(pos/100002i/d)，PE(pos,2i+1)=cos⁡(pos/100002i/d)PE(pos,2i+1)=cos(pos/100002i/d)），使模型感知序列顺序。
2. 编码器层堆叠
编码器由多个相同的层堆叠而成每层包含两个核心子层：
(1) 多头自注意力机制（Multi-Head Self-Attention）
自注意力（Self-Attention）：每个词元通过 Query、Key、Value 向量与序列中所有词元交互，计算注意力权重：
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V
其中，缩放因子 dkdk 防止梯度消失。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。