动手学Transformer

本文详细介绍了Transformer模型中的关键组件,如自注意力机制、多头注意力、位置编码、层归一化以及基于位置的前馈网络。它还探讨了编码器-解码器结构和信息传递过程,以及如何进行预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

自注意力

  • x i \mathbf{x}_i xi 自身作为key value query,求自己的注意力,对序列抽取特征
  • 输入和输出维度相同

请添加图片描述

计算复杂度 O ( n 2 d ) O(n^2d) O(n2d) 并行度 O ( n ) O(n) O(n) 最长路径 O ( 1 ) O(1) O(1)

自注意力没有记录位置信息,引入位置编码矩阵 P ∈ R n × d \mathbf{P}\in\mathbb{R}^{n\times d} PR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值