68 Transformer_by《李沐：动手学深度学习v2》pytorch版

最新推荐文章于 2025-09-08 23:58:02 发布

原创

最新推荐文章于 2025-09-08 23:58:02 发布 · 1.5k 阅读

·

60

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #transformer #pytorch

系列文章目录

文章目录

系列文章目录
Transformer架构
Part1：多头注意力
- 实现
- 小结
- 练习
有掩码的多头注意力
Part2：基于位置的前馈网络 FFN
Part3：残差连接和层规范化
编码器块
编码器完全体
- 解码器块
解码器完全体
训练

Transformer架构

基于编码器-解码器架构来处理序列对，跟使用注意力的seq2seq不同，Transformer是纯基于注意力。
在这里插入图片描述

Part1：多头注意力

对同一key，value，query，希望抽取不同的信息例如短距离关系和长距离关系
多头注意力使用 h个独立的注意力池化合并各个头(head)输出得到最终输出

在这里插入图片描述

在实现多头注意力之前，让我们用数学语言将这个模型形式化地描述出来。
给定查询 $\mathbf{q} \in \mathbb{R}^{d_q}$ 、键 $\mathbf{k} \in \mathbb{R}^{d_k}$ 和值 $\mathbf{v} \in \mathbb{R}^{d_v}$ ，每个注意力头 $\mathbf{h}_i$ （ $\ldots, h$ ）的计算方法为：

$\mathbf{h}_i = f(\mathbf W_i^{(q)}\mathbf q, \mathbf W_i^{(k)}\mathbf k,\mathbf W_i^{(v)}\mathbf v) \in \mathbb R^{p_v},$

其中，可学习的参数包括 $\mathbf W_i^{(q)}\in\mathbb R^{p_q\times d_q}$ 、 $\mathbf W_i^{(k)}\in\mathbb R^{p_k\times d_k}$ 和 $\mathbf W_i^{(v)}\in\mathbb R^{p_v\times d_v}$ ，以及代表注意力汇聚的函数

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。